데이터 마이닝

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 마이닝은 대규모 데이터 세트에서 숨겨진 패턴을 발견하고, 이를 통해 지식을 추출하는 과정이다. 역사적으로는 수작업으로 이루어졌으나, 컴퓨터 기술 발전과 기계 학습의 발달로 자동화되었다. 데이터베이스에서 지식 발견(KDD) 프로세스를 따르며, 선택, 전처리, 변환, 데이터 마이닝, 해석/평가의 단계를 거친다. 데이터 마이닝은 이상 탐지, 연관 규칙 학습, 클러스터링, 분류, 회귀, 요약 등 다양한 작업을 포함하며, 비즈니스, 의학, 과학 등 광범위한 분야에 적용된다. 윤리적 문제와 개인 정보 보호에 대한 우려가 있으며, 데이터 익명화, 개인 정보 보호 관련 법규, 저작권 문제 등이 고려되어야 한다. 다양한 소프트웨어 도구들이 데이터 마이닝을 위해 사용되며, 자유/오픈 소스 및 상용 소프트웨어 모두 존재한다.

더 읽어볼만한 페이지

데이터 마이닝 - 클러스터 분석
클러스터 분석은 유사한 특성을 가진 데이터 객체들을 그룹으로 묶는 기계 학습 기법으로, 다양한 알고리즘과 모델을 기반으로 하며 여러 분야에서 활용되고 클러스터링 결과는 다양한 방식으로 평가된다.
데이터 마이닝 - 이상 탐지
이상 탐지는 일반적인 관측치와 다른 이상치를 식별하여 침입 탐지, 사기 탐지 등에 활용되며, 통계적 방법, 밀도 기반 방법 등 다양한 방법이 존재하고 성능 평가를 위한 공개 데이터 세트가 사용된다.
형식과학 - 통계학
통계학은 데이터를 수집, 분석, 해석하여 추론과 예측을 수행하는 학문으로, 기술 통계와 추론 통계를 통해 데이터를 요약, 설명하고 모집단의 특성을 추론하며, 다양한 분야에서 의사결정 도구로 활용된다.
형식과학 - 컴퓨터 과학
컴퓨터 과학은 컴퓨터와 관련된 현상을 연구하는 학문으로, 계산 이론, 하드웨어 및 소프트웨어 설계, 문제 해결 등을 포괄하며, 수학, 공학 등 여러 분야와 융합하여 발전해 왔다.
통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.

2. 역사

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 통계학의 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스의 OLAP(온라인 분석 처리), 인공지능의 SOM, 신경망, 전문가 시스템 등의 기술이 쓰인다.

데이터 마이닝은 신용평점 시스템의 신용평가모형 개발, 사기탐지시스템, 장바구니 분석, 최적 포트폴리오 구축과 같이 다양한 산업 분야에서 활용된다. 하지만 자료가 현실을 충분히 반영하지 못하면 잘못된 모형을 구축할 수 있다는 단점이 있다.^[46]

메인프레임이 금융 기업의 기간 업무 시스템으로 가동되면서 디지털 데이터의 수집, 축적, 이용이 시작되었다. 1971년부터 1973년까지 칠레에서는 사이버신 계획이 실행되었는데, 이는 텔렉스를 통해 실시간으로 칠레 각지의 공장 데이터를 수집하고, 운용 과학을 이용하여 최적화된 생산 계획을 작성하여 공장에 피드백하는 시스템이었다.

1970년대 논문에서 "Data mining"이라는 용어가 사용되었으나, 당시에는 부정적인 뉘앙스로 사용되었다.

2. 1. 용어의 기원과 발전

1960년대에 통계학자와 경제학자들은 사전적 가설 없이 데이터를 분석하는 나쁜 관행을 지칭하기 위해 ''데이터 낚시(data fishing)'' 또는 ''데이터 준설(data dredging)''과 같은 용어를 사용했다.^[8]^[9] 1983년 마이클 러블 경제학자는 ''경제 연구 검토(Review of Economic Studies)''에 게재된 논문에서 "데이터 마이닝(data mining)"이라는 용어를 유사하게 비판적인 방식으로 사용했다.

''데이터 마이닝(data mining)''이라는 용어는 1990년경에 데이터베이스 커뮤니티에서 등장했으며 일반적으로 긍정적인 의미를 지녔다. 1980년대 잠시 동안 "데이터베이스 마이닝(database mining)"™이라는 문구가 사용되었지만, 샌디에이고에 본사를 둔 회사인 HNC가 데이터베이스 마이닝 워크스테이션을 홍보하기 위해 상표를 등록했기 때문에^[10] 연구자들은 결과적으로 ''데이터 마이닝(data mining)''으로 전환했다. 사용된 다른 용어로는 ''데이터 고고학(data archaeology)'', ''정보 수집(information harvesting)'', ''정보 발견(information discovery)'', ''지식 추출'' 등이 있다. 그레고리 피아테츠키-샤피로는 동일 주제에 대한 첫 번째 워크숍 [http://www.kdnuggets.com/meetings/kdd89/ (KDD-1989)]에 대해 "데이터베이스에서 지식 발견(knowledge discovery in databases)"이라는 용어를 만들었고 이 용어는 AI 및 기계 학습 커뮤니티에서 더욱 인기를 얻었다. 그러나 데이터 마이닝이라는 용어는 비즈니스 및 언론계에서 더욱 인기를 얻었다.^[11]

1989년에 "데이터베이스 내 지식 발견(Knowledge Discovery in Databases)"이라는 학술 연구 분야가 확립되면서 데이터 마이닝 연구 분야가 시작되었다. 1980년대에는 관계형 데이터베이스와 그 조작을 위한 언어 SQL이 등장하여, 온디맨드 방식으로 동적인 데이터 분석이 가능해졌다. 1990년대에 이르러 데이터 양은 폭발적으로 증가했고, 데이터 웨어하우스가 데이터 축적에 사용되기 시작했다. 이와 함께, 데이터베이스에서 대량의 데이터를 처리하기 위한 방법으로 데이터 마이닝의 개념이 나타났고, 통계 분석 방법이나 인공지능 분야의 검색 기술 등이 응용되었다.

3. 과정

데이터 마이닝 과정은 크게 데이터베이스에서의 지식 발견(KDD) 프로세스, 데이터 마이닝을 위한 산업 표준 프로세스(CRISP-DM), 그리고 전처리, 데이터 마이닝, 결과 검증의 세 단계로 나눌 수 있다.

2002년, 2004년, 2007년, 2014년 설문 조사에 따르면, 데이터 마이너들이 가장 많이 사용하는 방법론은 CRISP-DM이다.^[14]^[15]^[16]^[17] 이 조사에서 언급된 다른 데이터 마이닝 표준은 SEMMA였지만, CRISP-DM 사용자가 SEMMA 사용자보다 3~4배 더 많았다.

3. 1. 데이터베이스에서의 지식 발견 (KDD) 프로세스

데이터베이스에서의 지식 발견(KDD) 프로세스는 일반적으로 다음과 같은 단계로 정의된다.^[20]

# 선택

# 전처리

# 변환

# '''데이터 마이닝'''

# 해석/평가

그러나 이 주제에 대한 많은 변형이 존재한다. 예를 들어, 6단계로 정의된 데이터 마이닝을 위한 산업 표준 프로세스(CRISP-DM)는 다음과 같다.

# 비즈니스 이해

# 데이터 이해

# 데이터 준비

# 모델링

# 평가

# 배포

이 외에도 (1) 전처리, (2) 데이터 마이닝, (3) 결과 검증과 같은 단순화된 프로세스도 있다.

2002년, 2004년, 2007년 및 2014년에 실시된 설문 조사에 따르면 CRISP-DM 방법론이 데이터 마이너가 사용하는 주요 방법론이다.^[14]^[15]^[16]^[17]

이러한 설문 조사에서 언급된 유일한 다른 데이터 마이닝 표준은 SEMMA였다. 그러나 CRISP-DM을 사용한다고 응답한 사람이 SEMMA를 사용한다고 응답한 사람보다 3~4배 더 많았다. 여러 연구팀이 데이터 마이닝 프로세스 모델에 대한 검토를 발표했으며,^[18] Azevedo와 Santos는 2008년에 CRISP-DM과 SEMMA를 비교했다.^[19]

3. 2. CRISP-DM (Cross-Industry Standard Process for Data Mining)

데이터 마이닝을 위한 산업 표준 프로세스(CRISP-DM)는 다음 6단계로 정의된다.

# 비즈니스 이해

# 데이터 이해

# 데이터 준비

# 모델링

# 평가

# 배포

2002년, 2004년, 2007년 및 2014년에 실시된 설문 조사에 따르면 CRISP-DM 방법론이 데이터 마이너가 사용하는 주요 방법론이다.^[14]^[15]^[16]^[17] 이러한 설문 조사에서 언급된 유일한 다른 데이터 마이닝 표준은 SEMMA였으나, CRISP-DM을 사용한다고 응답한 사람이 3~4배 더 많았다. 여러 연구팀이 데이터 마이닝 프로세스 모델에 대한 검토를 발표했으며,^[18] Azevedo와 Santos는 2008년에 CRISP-DM과 SEMMA를 비교했다.^[19]

3. 3. 전처리

데이터 마이닝 알고리즘을 사용하기 전에, 대상 데이터 집합을 구성해야 한다. 데이터 마이닝은 데이터에 실제로 존재하는 패턴만 발견할 수 있으므로, 대상 데이터 집합은 이러한 패턴을 포함할 만큼 충분히 커야 하며, 허용 가능한 시간 내에 마이닝할 수 있을 만큼 간결해야 한다. 데이터의 일반적인 소스는 데이터 마트 또는 데이터 웨어하우스이다. 전처리는 데이터 마이닝 전에 다변량 데이터 집합을 분석하는 데 필수적이다. 그런 다음 대상 집합을 정리한다. 데이터 정리는 잡음을 포함하는 관측치와 결측 데이터가 있는 관측치를 제거한다.

3. 4. 데이터 마이닝

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학 쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.

데이터 마이닝은 신용평가모형 개발, 사기탐지시스템, 장바구니 분석, 최적 포트폴리오 구축과 같이 다양한 산업 분야에서 광범위하게 사용되고 있다.

자료에 의존하여 현상을 해석하고 개선하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수 있다.^[46]

데이터 마이닝은 데이터 분석을 통해 아래와 같은 분야에 적용하여 결과를 도출할 수 있다.^[46]

데이터 마이닝은 다음과 같은 6가지 일반적인 작업 범주를 포함한다:^[20]

이상 탐지 (이상치/변동/편차 탐지) – 표준 범위를 벗어나 추가 조사가 필요한 흥미로운 데이터 레코드 또는 데이터 오류를 식별한다.
연관 규칙 학습 (의존성 모델링) – 변수 간의 관계를 찾는다. 예를 들어 슈퍼마켓은 고객 구매 습관에 대한 데이터를 수집하여 어떤 제품이 자주 함께 구매되는지 파악하고 이 정보를 마케팅 목적으로 사용할 수 있다. 이는 때때로 시장 바구니 분석이라고 한다.
클러스터링 – 데이터의 알려진 구조를 사용하지 않고 데이터에서 어떤 방식으로든 "유사한" 그룹과 구조를 발견하는 작업이다.
분류 – 새로운 데이터에 적용하기 위해 알려진 구조를 일반화하는 작업이다. 예를 들어 이메일 프로그램은 이메일을 "정상" 또는 "스팸"으로 분류하려고 시도할 수 있다.
회귀 – 데이터 또는 데이터 세트 간의 관계를 추정하기 위해, 즉 최소 오류로 데이터를 모델링하는 함수를 찾으려고 시도한다.
요약 – 시각화 및 보고서 생성을 포함하여 데이터 세트를 보다 간결하게 표현한다.

데이터 집합에서 고빈도로 발생하는 특징적인 패턴을 찾는다.

연관 규칙 추출
* 데이터베이스에 축적된 대량의 데이터에서 빈번하게 동시에 발생하는 사건 간의 연관성이 강한 사건의 관계, 즉 연관 규칙을 추출하는 기술이다. POS나 e-커머스의 거래 로그에 포함된 구매 내역을 이용한 바스켓 분석이 유명하다.
** 예시 1: 슈퍼마켓에서 비디오를 산 사람 중 테이프를 사는 사람이 많다 → 두 상품을 같은 위치에 둔다.
** 예시 2: 책 A를 사는 사람은 나중에 책 B를 사는 경우가 많다 → 책 A 구매자에게 책 B를 추천하는 다이렉트 메일을 보낸다.
기타 빈번 패턴
* 시계열이나 그래프를 대상으로 하는 것도 있다.

클래스 분류는 주어진 데이터에 해당하는 범주를 예측하는 문제이다.

대표적인 기법: 나이브 베이즈 분류기, 결정 트리, 서포트 벡터 머신
* 예: 약품 화합물 데이터로부터 해당 화합물에 약효가 있는지 없는지 등의 범주를 예측

주어진 데이터에 해당하는 실수 값을 예측하는 문제이다.

대표적인 기법: 선형 회귀, 로지스틱 회귀, 서포트 벡터 회귀
* 예: 요일, 강수 확률, 오늘의 매출 등 데이터를 바탕으로 내일의 매출이라는 실수 값 데이터를 예측
* 예: 온도, 수분 활성, pH 등 데이터를 바탕으로 식중독 세균의 증식 및 사멸을 예측^[45]

데이터 집합을 클러스터라고 부르는 그룹으로 나눈다. 클러스터는 같은 클러스터의 데이터는 서로 유사하고, 다른 클러스터는 유사하지 않은 데이터의 집합이다.

클러스터 분석 참조
* 예: 웹 열람 패턴 데이터를 통해 유사한 데이터를 묶어, 열람 경향이 같은 사용자 그룹을 발견한다.

3. 5. 결과 검증

데이터 마이닝 알고리즘으로 생성된 패턴이 더 넓은 데이터 세트에서도 나타나는지 확인하는 것은 중요하다. 알고리즘이 발견한 모든 패턴이 반드시 유효한 것은 아니다. 훈련 세트에서만 나타나고 일반적인 데이터 세트에는 없는 패턴을 찾는 경우가 있는데, 이를 과적합이라고 한다.

과적합을 극복하기 위해, 알고리즘이 훈련되지 않은 별도의 테스트 세트를 사용하여 평가를 진행한다. 학습된 패턴을 테스트 세트에 적용하고, 그 결과를 원하는 출력과 비교한다. 예를 들어, "스팸"과 "정상적인" 이메일을 구별하는 알고리즘은 샘플 이메일의 훈련 세트에서 훈련된 후, 훈련되지 않은 이메일의 테스트 세트에 적용된다. 패턴의 정확성은 얼마나 많은 이메일을 올바르게 분류하는지에 따라 측정할 수 있다. ROC 곡선과 같은 통계적 방법을 사용하여 알고리즘의 성능을 평가할 수 있다.

만약 학습된 패턴이 원하는 수준에 미치지 못하면, 데이터 전처리 및 마이닝 단계를 다시 검토하고 수정해야 한다. 학습된 패턴이 원하는 수준을 충족하면, 마지막 단계는 이 패턴을 해석하여 실제 활용 가능한 지식으로 전환하는 것이다.

통계학자 타일러 비겐(Tyler Vigen)이 운영하는 봇을 통해 생성된 데이터의 예시로, 맞춤법 경연대회에서 우승하는 최고의 단어와 미국에서 독거미에 의해 사망한 사람의 수 사이의 밀접한 연관성을 보여주는 것으로 보임.

데이터 마이닝은 의도치 않게 오용되어 실제 미래 행동을 예측하지 못하고 새로운 데이터 샘플에서 재현될 수 없는 결과를 생성하여 거의 쓸모가 없는 결과를 초래할 수 있다. 이는 때때로 너무 많은 가설을 조사하고 적절한 통계적 가설 검정을 수행하지 않아서 발생한다.^[21]

4. 해석 기법

데이터 마이닝은 통계학의 패턴 인식 등 다양한 계량 기법을 사용한다. 통계학, 데이터베이스, 인공지능 분야의 방법론이 사용된다.

데이터 마이닝은 신용평가 시스템의 신용평가모형 개발, 사기 탐지 시스템, 장바구니 분석, 최적 포트폴리오 구축과 같이 다양한 산업 분야에서 널리 활용되고 있다.

하지만 자료가 현실을 충분히 반영하지 못할 경우, 잘못된 모형을 구축할 수 있다는 단점이 있다.^[46]

4. 1. 통계적 기법

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등 통계학 쪽에서 발전한 방법론과 OLAP(온라인 분석 처리), SOM, 신경망, 전문가 시스템 등 인공지능 진영에서 발전한 기술적인 방법론이 쓰인다.^[46]

4. 2. 인공지능 및 기계 학습 기법

데이터 마이닝은 통계학의 패턴 인식 등 다양한 계량 기법을 활용한다. 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등 통계학적 방법론과 OLAP, SOM, 신경망, 전문가 시스템 등 인공지능 및 기계 학습 기술이 사용된다.

데이터 마이닝은 자료에 의존하여 현상을 해석하고 개선하려 하기 때문에, 자료가 현실을 충분히 반영하지 못하면 잘못된 모형을 구축할 수 있다는 단점이 있다.^[46]

데이터 집합에서 자주 나타나는 특징적인 패턴을 찾는데, 여기에는 다음과 같은 기법들이 활용된다.

연관 규칙 추출: 대량의 데이터에서 빈번하게 함께 발생하는 사건들 간의 연관성이 강한 규칙을 찾는 기술이다. POS나 e-커머스의 거래 기록을 이용한 바스켓 분석이 대표적이다.
예시 1: 슈퍼마켓에서 비디오를 구매한 사람 중 테이프를 구매하는 사람이 많다면, 두 상품을 같은 위치에 진열한다.
예시 2: 책 A를 구매한 사람이 나중에 책 B를 구매하는 경우가 많다면, 책 A 구매자에게 책 B를 추천하는 메일을 보낸다.
기타 빈번 패턴: 시계열이나 그래프를 대상으로 하는 패턴 분석도 있다.

데이터에 해당하는 범주를 예측하는 클래스 분류, 데이터에 해당하는 실수 값을 예측하는 문제, 데이터를 유사한 데이터끼리 묶는 클러스터 분석에는 다음과 같은 기법들이 활용된다.

클래스 분류
대표적인 기법: 나이브 베이즈 분류기, 결정 트리, 서포트 벡터 머신
예: 약품 화합물 데이터로부터 해당 화합물에 약효가 있는지 여부를 예측
실수 값 예측
대표적인 기법: 선형 회귀, 로지스틱 회귀, 서포트 벡터 회귀
예: 요일, 강수 확률, 오늘의 매출 등의 데이터를 바탕으로 내일의 매출을 예측
예: 온도, 수분 활성, pH 등의 데이터를 바탕으로 식중독 세균의 증식 및 사멸 예측^[45]
클러스터 분석
클러스터 분석 참조
예: 웹 열람 패턴 데이터를 통해 유사한 데이터를 묶어, 열람 경향이 같은 사용자 그룹을 발견

4. 3. 데이터베이스 기법

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학 쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.^[46]

5. 적용 분야

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학 쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.

데이터 마이닝은 다음과 같은 분야에 적용하여 결과를 도출할 수 있다.^[46]

분류(Classification): 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다 (예: 경쟁자에게로 이탈한 고객).
군집화(Clustering): 구체적인 특성을 공유하는 군집을 찾는다. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다 (예: 유사 행동 집단의 구분).
연관성(Association): 동시에 발생한 사건 간의 관계를 정의한다. (예: 장바구니 안에 동시에 들어가는 상품들의 관계 규명).
연속성(Sequencing): 특정 기간에 걸쳐 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사하다 (예: 슈퍼마켓과 금융상품 사용에 대한 반복 방문).
예측(Forecasting): 대용량 데이터 집합 내의 패턴을 기반으로 미래를 예측한다 (예: 수요예측).^[46]

데이터 마이닝의 응용 분야로 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 요즘날 다양한 산업 분야에서 광범위하게 사용되고 있다.

데이터 마이닝은 디지털 데이터를 사용할 수 있는 모든 곳에서 사용된다. 주목할 만한 데이터 마이닝의 예는 비즈니스, 의학, 과학, 금융, 건설 및 감시 전반에서 찾아볼 수 있다.

6. 윤리적 문제 및 개인 정보 보호

유럽은 비교적 강력한 개인 정보 보호법을 가지고 있으며, 소비자의 권리를 더욱 강화하려는 노력이 진행 중이다. 하지만 1998년에서 2000년 사이에 개발된 미국-EU 세이프 하버 원칙은 현재 유럽 사용자들이 미국 기업에 의한 개인 정보 침해에 노출되도록 하고 있다. 에드워드 스노든의 전 세계 감시 폭로의 결과로, 특히 데이터가 국가 안보국에 완전히 노출될 것이기 때문에 이 협정을 철회하려는 논의가 증가했으며, 미국과의 합의 시도는 실패했다.^[35]

특히 영국에서는 기업들이 데이터 마이닝을 사용하여 특정 고객 그룹을 대상으로 부당하게 높은 가격을 지불하도록 하는 사례가 있었다. 이러한 그룹은 디지털 시장에서 어떻게 이용될 수 있는지 잘 모르는, 사회 경제적 지위가 낮은 사람들이었다.^[36]

미국에서는 미국 의회가 건강 보험 이동성 및 책임에 관한 법률(HIPAA)과 같은 규제 통제를 통과시키면서 프라이버시 문제가 해결되었다. HIPAA는 개인에게 제공하는 정보와 현재 및 미래 사용 목적에 대한 "사전 동의"를 요구한다. ''바이오테크 비즈니스 위크''의 기사에 따르면, "실제로 HIPAA는 연구 분야의 오랜 규제보다 더 큰 보호를 제공하지 못할 수 있다"고 AAHC는 말한다. "더 중요한 것은, 사전 동의를 통한 보호라는 규칙의 목표가 일반인에게 이해할 수 없는 수준에 접근하고 있다."^[37] 이는 데이터 집계 및 마이닝 관행에서 데이터 익명화의 필요성을 강조한다.

HIPAA 및 가족 교육 권리 및 프라이버시 법(FERPA)과 같은 미국의 정보 프라이버시 법률은 각 법률이 다루는 특정 분야에만 적용된다. 미국 내 대부분의 기업에서 데이터 마이닝의 사용은 어떠한 법률에 의해서도 통제되지 않는다.

6. 1. 개인 정보 침해

"데이터 마이닝"이라는 용어 자체는 윤리적인 의미를 내포하지 않을 수 있지만, 종종 사용자 행동과 관련된 정보의 마이닝(윤리적인 경우와 그렇지 않은 경우)과 관련이 있다.^[27]

데이터 마이닝이 사용될 수 있는 방식은 경우에 따라 프라이버시, 합법성 및 윤리와 관련된 문제를 제기할 수 있다.^[28] 특히, 전체 정보 인식 프로그램 또는 ADVISE와 같이 국가 안보 또는 법 집행 목적으로 정부 또는 상업 데이터 세트를 데이터 마이닝하는 것은 프라이버시 우려를 제기해 왔다.^[29]^[30]

데이터 마이닝은 기밀 유지 및 프라이버시 의무를 훼손하는 정보나 패턴을 드러내는 데이터 준비를 필요로 한다. 이는 일반적으로 데이터 집계를 통해 발생한다. 데이터 집계는 분석을 용이하게 하는 방식으로 (다양한 소스에서 가져온 데이터를 포함하여) 데이터를 결합하는 것을 포함하며, 개인 수준의 개인 데이터를 식별하거나 명확하게 할 수 있다.^[31] 이것은 데이터 마이닝 자체는 아니지만, 분석 전과 분석 목적으로 데이터를 준비한 결과이다. 개인의 프라이버시에 대한 위협은 데이터를 컴파일한 후 데이터 마이너 또는 새로 컴파일된 데이터 세트에 접근할 수 있는 사람이, 특히 데이터가 원래 익명이었을 때 특정 개인을 식별할 수 있게 될 때 발생한다.^[32]

데이터가 수집되기 '''전에''' 다음 사항을 인지하는 것이 권장된다:^[31]

데이터 수집의 목적 및 (알려진) 모든 데이터 마이닝 프로젝트.
데이터가 어떻게 사용될 것인가.
누가 데이터를 마이닝하고, 데이터 및 파생물을 사용할 수 있는가.
데이터 접근을 둘러싼 보안 상태.
수집된 데이터를 업데이트할 수 있는 방법.

데이터는 또한 개인이 쉽게 식별되지 않도록 익명화될 수 있도록 수정될 수 있다.^[31] 그러나, 언론인들이 AOL에 의해 부주의하게 공개된 검색 기록을 토대로 여러 개인을 찾아낼 수 있었던 것처럼, "익명화된" 데이터 세트조차도 개인 식별을 가능하게 할 만큼 충분한 정보를 포함할 수 있다.^[33]

개인 식별 정보가 부주의하게 공개되어 제공자가 공정한 정보 관행을 위반하는 경우가 발생한다. 이러한 경솔함은 해당 개인에게 재정적, 정서적 또는 신체적 피해를 입힐 수 있다. 프라이버시 침해의 한 예로, 2011년 월그린(Walgreens)의 고객들은 처방 정보를 데이터 마이닝 회사에 판매하고, 이 회사들이 다시 제약 회사에 데이터를 제공한 혐의로 회사에 소송을 제기했다.^[34]

6. 2. 데이터 익명화 및 개인 정보 보호

데이터 마이닝은 사용자 행동과 관련된 정보의 마이닝과 관련될 때 윤리적인 문제를 야기할 수 있다.^[27] 특히, 국가 안보나 법 집행 목적으로 정부나 기업이 데이터 마이닝을 하는 경우 프라이버시 침해 우려가 제기된다.^[29]^[30]

데이터 마이닝은 기밀 유지 및 프라이버시 의무를 훼손하는 정보나 패턴을 드러낼 수 있으며, 이는 데이터 집계를 통해 발생한다.^[31] 데이터 집계는 분석을 위해 데이터를 결합하는 것이지만, 개인 수준의 데이터를 식별할 수 있게 만들기도 한다.^[31] 데이터 마이너나 데이터 세트에 접근 가능한 사람이 익명화된 데이터에서 특정 개인을 식별할 수 있을 때 개인 정보 침해 위협이 발생한다.^[32]

따라서 데이터 수집 '''전에''' 다음 사항을 인지하는 것이 권장된다.^[31]

데이터 수집 목적 및 데이터 마이닝 프로젝트
데이터 사용 방법
데이터 마이닝 주체 및 데이터, 파생물 사용자
데이터 접근 관련 보안 상태
수집된 데이터 업데이트 방법

데이터는 개인이 쉽게 식별되지 않도록 익명화될 수 있다.^[31] 그러나 "익명화된" 데이터 세트조차도 개인 식별을 가능하게 할 만큼 충분한 정보를 포함할 수 있다. AOL 검색 기록 공개 사례가 그 예시이다.^[33]

개인 식별 정보가 부주의하게 공개되어 공정한 정보 관행을 위반하는 경우가 발생할 수 있다. 2011년 월그린(Walgreens) 고객들은 처방 정보를 데이터 마이닝 회사에 판매하고, 이 회사들이 다시 제약 회사에 데이터를 제공한 혐의로 회사를 상대로 소송을 제기했다.^[34]

6. 3. 한국의 개인 정보 보호 관련 법규

주어진 원본 소스는 미국의 개인 정보 보호 관련 법규(HIPAA, FERPA)에 대한 내용만 담고 있으며, "한국의 개인 정보 보호 관련 법규"에 대한 내용은 포함하고 있지 않습니다. 따라서 주어진 제목과 섹션 제목에 맞는 내용을 작성할 수 없습니다.

7. 저작권 문제

7. 1. 유럽의 저작권법

유럽 저작권 데이터베이스 법에 따르면, 저작권 소유자의 허가 없이 저작권이 있는 저작물(예: 웹 마이닝)을 마이닝하는 것은 불법이다. 유럽에서 데이터베이스가 순수한 데이터인 경우 저작권이 없을 수 있지만 데이터베이스 권리가 존재할 수 있으며, 따라서 데이터 마이닝은 데이터베이스 지침에 의해 보호되는 지적 재산권 소유자의 권리에 종속된다. 하그리브스 검토의 권고에 따라, 영국 정부는 2014년에 저작권법을 개정하여 제한 및 예외로 콘텐츠 마이닝을 허용하게 했다.^[38] 영국은 2009년에 데이터 마이닝에 대한 예외를 도입한 일본에 이어 세계에서 두 번째로 이 조치를 취한 국가였다. 그러나 정보 사회 지침(2001)의 제한으로 인해 영국의 예외는 비상업적 목적으로만 콘텐츠 마이닝을 허용한다. 또한, 영국의 저작권법은 계약 조건에 의해 이 조항이 무효화되는 것을 허용하지 않는다.

2020년부터 스위스도 스위스 저작권법 제24d조에 규정된 특정 조건 하에 연구 분야에서 데이터 마이닝을 허용하여 데이터 마이닝을 규제하고 있다. 이 새로운 조항은 2020년 4월 1일에 발효되었다.^[39]

유럽 연합 집행위원회는 2013년 "유럽을 위한 라이선스"라는 제목으로 텍스트 및 데이터 마이닝에 대한 이해 관계자 토론을 촉진했다.^[40] 제한 및 예외가 아닌 라이선스 등 이 법적 문제에 대한 해결책에 대한 초점은 대학교, 연구원, 도서관, 시민 사회 단체 및 오픈 액세스 출판사의 대표들이 2013년 5월 이해 관계자 대화에서 탈퇴하게 했다.^[41]

7. 2. 미국의 저작권법

미국 저작권법, 특히 공정 이용 조항은 대한민국과 같은 공정 이용 국가에서 콘텐츠 마이닝의 합법성을 유지한다. 콘텐츠 마이닝은 원본 작업을 대체하지 않기 때문에 변형적인 것으로 간주되어 공정 이용에 따라 합법적인 것으로 판단된다. 예를 들어, 구글 도서 합의에서 재판장은 구글의 저작권 도서 디지털화 프로젝트가 텍스트 및 데이터 마이닝과 같은 변형적 사용을 보여주었기 때문에 합법이라고 판결했다.^[42]

8. 소프트웨어

데이터 마이닝에 사용되는 다양한 상용 소프트웨어들이 존재한다.

SAS 엔터프라이즈 마이너^[1]
SPSS 클레멘타인^[2]
NAG 데이터 마이닝 컴포넌트^[3]
[https://www.msi.co.jp/index.html NTT 데이터 수리 시스템] [https://www.msi.co.jp/vmstudio/ Visual Mining Studio]: 수리 최적화를 전문으로 하는 일본 기업의 제품이다.^[4]
KXEN, Inc. KXEN^[5]
[http://rapid-i.com/component/option,com_frontpage/Itemid,1/lang,en/ Rapid-I GmbH] [http://www.rapid-i-partner.jp/ Rapid Miner]^[6]
[https://www.nttcoms.com/service/TIBCO/products/spotfire/ TIBCO Spotfire]: CIA 개발이라고도 하는 미국 정부 기관에서 사용하는 마이닝 도구이다.^[7]
[http://www.hulinks.co.jp/software/cart/ CART (HULINKS)]： 거대한 이진 트리에서도 짧은 시간 안에 생성 가능한 결정 트리 분석 소프트웨어이다.^[8]
[http://www.hulinks.co.jp/software/randomforests/ RandomForests (HULINKS)]： CART와 부트스트랩을 사용하여 결정 트리의 집합을 복합적으로 생성하는 Random forest를 상용화한 마이닝 시스템이다.^[9]
Oracle Data Mining([http://www.oracle.com/technetwork/jp/database/options/odm/index.html Oracle Data Mining])： Oracle Database Enterprise Edition의 옵션 API. 자동으로 마이닝하여 예측 및 발견을 보고하는 기능을 개발하고 Oracle 애플리케이션에 통합하는 것을 지원한다.^[10]
Data Robot ([http://datarobot.com/]) 여러 알고리즘을 병렬 계산하여 평가 함수로 순위를 매긴다.^[11]
앙고스(Angoss) KnowledgeSTUDIO
LIONsolver
폴리애널리스트(PolyAnalyst)
마이크로소프트 분석 서비스(Microsoft Analysis Services)
넷아울(NetOwl)
오라클 데이터 마이닝(Oracle Data Mining)
PSeven
Qlucore 옴믹스 익스플로러
RapidMiner
SAS 엔터프라이즈 마이너(SAS Enterprise Miner)
SPSS 모델러(SPSS Modeler)
STATISTICA 데이터 마이너
타나그라(Tanagra)
Vertica
구글 클라우드 플랫폼(Google Cloud Platform)
아마존 세이지메이커(Amazon SageMaker)

8. 1. 자유/오픈 소스 소프트웨어

Carrot2: 텍스트 및 검색 결과 클러스터링 프레임워크이다.
Chemicalize.org: 화학 구조 마이너 및 웹 검색 엔진이다.
ELKI: 자바 언어로 작성된 고급 클러스터 분석 및 이상치 감지 방법이 있는 대학 연구 프로젝트이다.
GATE: 자연어 처리 및 언어 공학 도구이다.
KNIME: 콘스탄츠 정보 마이너(Konstanz Information Miner)는 사용자 친화적이고 포괄적인 데이터 분석 프레임워크이다.
대규모 온라인 분석(MOA): 자바 프로그래밍 언어로 된 개념 드리프트 도구를 사용한 실시간 빅 데이터 스트림 마이닝이다.
MEPX: 유전자 프로그래밍 변형을 기반으로 하는 회귀 및 분류 문제를 위한 크로스 플랫폼 도구이다.
mlpack:
NLTK (자연어 툴킷): 파이썬 언어를 위한 기호 및 통계적 자연어 처리(NLP)를 위한 라이브러리 및 프로그램 모음이다.
OpenNN: 오픈 신경망 라이브러리이다.
Orange: 파이썬 언어로 작성된 구성 요소 기반 데이터 마이닝 및 기계 학습 소프트웨어 제품군이다.
PSPP: SPSS와 유사한 GNU 프로젝트 하의 데이터 마이닝 및 통계 소프트웨어이다.
R: 통계 컴퓨팅, 데이터 마이닝 및 그래픽을 위한 프로그래밍 언어 및 소프트웨어 환경이다. 이는 GNU 프로젝트의 일부이다.
scikit-learn: 파이썬 프로그래밍 언어를 위한 오픈 소스 기계 학습 라이브러리이다.
Torch: Lua 프로그래밍 언어 및 과학 컴퓨팅 프레임워크를 위한 오픈 소스 딥 러닝 라이브러리로, 기계 학습 알고리즘을 광범위하게 지원한다.
UIMA: UIMA(Unstructured Information Management Architecture)는 텍스트, 오디오 및 비디오와 같은 비정형 콘텐츠를 분석하기 위한 구성 요소 프레임워크이며, 원래 IBM에서 개발했다.
Weka: 자바 프로그래밍 언어로 작성된 기계 학습 소프트웨어 애플리케이션 모음이다.
'''GNU R'''([http://www.r-project.org/ r-project.org]): GNU 프로젝트에 의한 S 언어 사양을 GNU GPL로 구현한 범용 통계 시각화 환경이다. 일반적으로 "R 언어" 또는 "R"이라고도 불린다. 무상으로 제공되는 기여 프로그램 패키지는 6,000개가 넘으며, Weka를 이용하는 Rweka나 Random forest 등도 있다. UI는 R GUI 또는 터미널을 통한 명령줄 입력만 지원한다. R 자체는 인터프리터이지만, 속도가 필요한 경우 C 언어나 Fortran 코드를 직접 작성하여 컴파일 실행할 수 있으며, 패키지 Rcpp를 병용하여 C++도 혼용할 수 있다. 신뢰성에 정평이 있으며, 미국 FDA 공인이다. 멀티 플랫폼을 지원하며, GNU GPL 오픈 소스이다.
'''Weka'''([http://www.cs.waikato.ac.nz/ml/weka/ waikato.ac.nz/ml/weka]): 와이카토 대학교에서 개발된, Java 기반의 데이터 마이닝 소프트웨어이다. 다이어그램 등 다양한 그래픽 인터페이스를 통해 고도의 마이닝 기법을 시각적으로 구축하고 활용할 수 있다. 연관 규칙, 신경망, SVM, 결정 트리 등 다양한 분석 기법이 미리 여러 모듈로 포함되어 있어, 코드를 작성하지 않고 모듈을 링크로 연결하여 입력, 분석, 출력까지의 흐름을 구축할 수 있다. GNU GPL 오픈 소스이다.
'''RapidMiner 커뮤니티 버전'''([http://www.rapid-i-partner.jp/product/miner/ rapid-i-partner.jp/product/miner]): 오픈 소스이다. 내부에 Weka를 통합하여, Weka와 마찬가지로 다이어그램 방식의 분석 흐름을 구축할 수 있다. GNU R과의 인터페이스도 제공한다.
'''Julia (프로그래밍 언어)'''([http://julialang.org/ julialang.org]): 과학 기술 계산을 주된 목적으로 설계된 범용 고수준 프로그래밍 언어 및 실행 환경이다. LLVM을 사용하며, 이식성도 뛰어나다. MIT 라이선스 오픈 소스이다.
'''Orange'''([http://orange.biolab.si/ orange.biolab.si]): 그래픽 데이터 마이닝 소프트웨어이다. Python으로 작성되었다. Windows, OSX, 각종 Linux를 지원하는 멀티 플랫폼이다. GNU GPL 오픈 소스이다.
'''Red-R'''([http://red-r.org/ red-r.org]): GNU R에 다이어그램 인터페이스를 통합할 수 있는 소프트웨어이다. GNU GPL 오픈 소스이다.
'''R AnalyticFlow'''([http://www.ef-prime.com/products/ranalyticflow/index.html ef-prime.com]): GNU R에 다이어그램 인터페이스를 통합할 수 있는 소프트웨어이다. 일본 기업 ef-prime이 무료로 배포하고 있으며, 일본어 매뉴얼과 유료 법인 지원도 제공한다.
'''D3.js'''([http://d3js.org/ d3js.org]): 브라우저를 사용하여 통계 데이터를 다양한 표현으로 시각화하기 위한 JavaScript 라이브러리이다.
'''OpenCV''' : 이미지 및 형상 데이터의 인식, 추출, 예측 처리를 목적으로 하는 컴퓨터 비전 라이브러리이지만, 패턴 인식, 기계 학습 등 범용적인 함수가 다수 수록되어 있어, 데이터 마이닝에서의 활용성도 높다. 인텔이 개발했다. 오픈 소스이다.
'''Shogun toolbox'''([http://www.shogun-toolbox.org/doc/en/current/index.html Shogun]): 멀티 커널 학습(MKL) 등 SVM을 중심으로 최첨단 알고리즘을 망라한 기계 학습 툴 박스이다. C++로 구현되었다. GNU GPL3.

8. 2. 상용 소프트웨어

앙고스(Angoss) KnowledgeSTUDIO: 데이터 마이닝 도구이다.
LIONsolver: 학습 및 지능형 최적화(LION) 접근 방식을 구현하는 데이터 마이닝, 비즈니스 인텔리전스 및 모델링을 위한 통합 소프트웨어 애플리케이션이다.
폴리애널리스트(PolyAnalyst): 메가퓨터 인텔리전스(Megaputer Intelligence)의 데이터 및 텍스트 마이닝 소프트웨어이다.
마이크로소프트 분석 서비스(Microsoft Analysis Services): 마이크로소프트(Microsoft)에서 제공하는 데이터 마이닝 소프트웨어이다.
넷아울(NetOwl): 데이터 마이닝을 가능하게 하는 다국어 텍스트 및 개체 분석 제품군이다.
오라클 데이터 마이닝(Oracle Data Mining): 오라클(Oracle Corporation)의 데이터 마이닝 소프트웨어이다.
PSeven: DATADVANCE에서 제공하는 엔지니어링 시뮬레이션 및 분석, 다학제 최적화 및 데이터 마이닝 자동화를 위한 플랫폼이다.
Qlucore 옴믹스 익스플로러: 데이터 마이닝 소프트웨어이다.
RapidMiner: 기계 학습 및 데이터 마이닝 실험을 위한 환경이다.
SAS 엔터프라이즈 마이너(SAS Enterprise Miner): SAS 인스티튜트(SAS Institute)에서 제공하는 데이터 마이닝 소프트웨어이다.
SPSS 모델러(SPSS Modeler): IBM에서 제공하는 데이터 마이닝 소프트웨어이다.
STATISTICA 데이터 마이너: StatSoft에서 제공하는 데이터 마이닝 소프트웨어이다.
타나그라(Tanagra): 시각화 지향적인 데이터 마이닝 소프트웨어로, 교육용으로도 사용된다.
Vertica: 휴렛 팩커드(Hewlett-Packard)에서 제공하는 데이터 마이닝 소프트웨어이다.
구글 클라우드 플랫폼(Google Cloud Platform): 구글(Google)에서 관리하는 자동화된 맞춤형 ML 모델이다.
아마존 세이지메이커(Amazon SageMaker): 맞춤형 ML 모델을 생성하고 프로덕션화하기 위해 아마존(Amazon.com)에서 제공하는 관리형 서비스이다.
SAS 엔터프라이즈 마이너
SPSS 클레멘타인
NAG 데이터 마이닝 컴포넌트
[https://www.msi.co.jp/index.html NTT 데이터 수리 시스템] [https://www.msi.co.jp/vmstudio/ Visual Mining Studio]: 수리 최적화를 전문으로 하는 일본 기업의 제품이다.
KXEN, Inc. KXEN
[http://rapid-i.com/component/option,com_frontpage/Itemid,1/lang,en/ Rapid-I GmbH] [http://www.rapid-i-partner.jp/ Rapid Miner]
[https://www.nttcoms.com/service/TIBCO/products/spotfire/ TIBCO Spotfire]: CIA 개발이라고도 하는 미국 정부 기관에서 사용하는 마이닝 도구이다.
[http://www.hulinks.co.jp/software/cart/ CART (HULINKS)]： 거대한 이진 트리에서도 짧은 시간 안에 생성 가능한 결정 트리 분석 소프트웨어이다.
[http://www.hulinks.co.jp/software/randomforests/ RandomForests (HULINKS)]： CART와 부트스트랩을 사용하여 결정 트리의 집합을 복합적으로 생성하는 Random forest를 상용화한 마이닝 시스템이다.
Oracle Data Mining([http://www.oracle.com/technetwork/jp/database/options/odm/index.html Oracle Data Mining])： Oracle Database Enterprise Edition의 옵션 API. 자동으로 마이닝하여 예측 및 발견을 보고하는 기능을 개발하고 Oracle 애플리케이션에 통합하는 것을 지원한다.
Data Robot ([http://datarobot.com/]) 여러 알고리즘을 병렬 계산하여 평가 함수로 순위를 매긴다.

참조

_[1] 웹사이트 Data Mining Curriculum http://www.kdd.org/c[...] ACM SIGKDD 2006-04-30
_[2] 웹사이트 Encyclopædia Britannica: Definition of Data Mining https://www.britanni[...]
_[3] 웹사이트 The Elements of Statistical Learning: Data Mining, Inference, and Prediction http://www-stat.stan[...]
_[4] 서적 Data Mining: Concepts and Techniques Morgan Kaufmann 2011
_[5] 서적 Data mining: concepts and techniques Morgan Kaufmann 2001
_[6] 간행물 OKAIRP 2005 Fall Conference, Arizona State University http://www.okairp.or[...]
_[7] 논문 Data mining in business services 2007
_[8] 논문 Data Mining 1983
_[9] 서적 New Directions in Econometric Practice Edward Elgar
_[10] 서적 Machine Learning Forensics for Law Enforcement, Security, and Intelligence CRC Press (Taylor & Francis Group)
_[11] 웹사이트 Lesson: Data Mining, and Knowledge Discovery: An Introduction http://www.kdnuggets[...] KD Nuggets
_[12] 논문 Data mining: past, present and future https://www.cambridg[...] 2011-02-07
_[13] 서적 Data Mining: Concepts, Models, Methods, and Algorithms https://archive.org/[...] John Wiley & Sons
_[14] 웹사이트 What main methodology are you using for data mining (2002)? https://www.kdnugget[...] KDnuggets 2002
_[15] 웹사이트 What main methodology are you using for data mining (2004)? https://www.kdnugget[...] KDnuggets 2004
_[16] 웹사이트 What main methodology are you using for data mining (2007)? http://www.kdnuggets[...] KDnuggets 2007
_[17] 웹사이트 What main methodology are you using for data mining (2014)? https://www.kdnugget[...] KDnuggets 2014
_[18] 논문 A survey of Knowledge Discovery and Data Mining process models http://journals.camb[...] Cambridge University Press 2006-03
_[19] 간행물 KDD, SEMMA and CRISP-DM: a parallel overview http://www.iadis.net[...]
_[20] 웹사이트 From Data Mining to Knowledge Discovery in Databases http://www.kdnuggets[...]
_[21] 논문 The problem of overfitting
_[22] 웹사이트 Microsoft Academic Search: Top conferences in data mining http://academic.rese[...] Microsoft Academic Search
_[23] 웹사이트 Google Scholar: Top publications - Data Mining & Analysis https://scholar.goog[...] Google Scholar
_[24] 간행물 Proceedings http://www.kdd.org/c[...] ACM
_[25] 간행물 SIGKDD Explorations http://www.kdd.org/e[...] ACM
_[26] 논문 Proceedings of the 2011 workshop on Predictive markup language modeling
_[27] 논문 The Promise and Pitfalls of Data Mining: Ethical Issues https://ww2.amstat.o[...] American Statistical Association 2005
_[28] 논문 The End of Illegal Domestic Spying? Don't Count on It http://www.washingto[...] 2007-03-15
_[29] 논문 Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data http://www.stlr.org/[...] 2003-12-15
_[30] 웹사이트 A Framework for Mining Instant Messaging Services https://johnresig.co[...]
_[31] 간행물 Think Before You Dig: Privacy Implications of Data Mining & Aggregation http://www.nascio.or[...] NASCIO Research Brief 2004-09
_[32] 잡지 Don't Build a Database of Ruin http://blogs.hbr.org[...]
_[33] 간행물 AOL search data identified individuals' http://www.securityf[...] SecurityFocus 2006-08
_[34] 논문 Big data's impact on privacy, security and consumer welfare http://libres.uncg.e[...]
_[35] 웹사이트 U.S.–E.U. Data Privacy: From Safe Harbor to Privacy Shield https://crsreports.c[...] 2016-05-19
_[36] 웹사이트 UK companies targeted for using big data to exploit customers https://www.ft.com/c[...] 2022-12-04
_[37] 뉴스 BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research Biotech Business Week 2008-06-30
_[38] 웹사이트 UK Researchers Given Data Mining Right Under New UK Copyright Laws http://www.out-law.c[...] 2014-11-14
_[39] 웹사이트 Fedlex https://www.fedlex.a[...] 2021-12-16
_[40] 웹사이트 Licences for Europe – Structured Stakeholder Dialogue 2013 http://ec.europa.eu/[...]
_[41] 웹사이트 Text and Data Mining:Its importance and the need for change in Europe http://libereurope.e[...]
_[42] 웹사이트 Judge grants summary judgment in favor of Google Books – a fair use victory http://www.lexology.[...] Antonelli Law Ltd 2013-11-19
_[43] 논문 Knowledge Discovery in Databases: An Overview 1992
_[44] 서적 Principles of Data Mining MIT Press 2001
_[45] 논문 Prediction of population behavior of Listeria monocytogenes in food using machine learning and a microbial growth and survival database http://www.nature.co[...] 2021-12
_[46] 서적 경영정보시스템원론(제2판) 법영사 2005

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

분야	설명	예시
분류(Classification)	일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.	경쟁자에게로 이탈한 고객
군집화(Clustering)	구체적인 특성을 공유하는 군집을 찾는다. 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다.	유사 행동 집단의 구분
연관성(Association)	동시에 발생한 사건 간의 관계를 정의한다.	장바구니 안의 동시에 들어가는 상품들의 관계 규명
연속성(Sequencing)	특정 기간에 걸쳐 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사하다.	슈퍼마켓과 금융상품 사용에 대한 반복 방문
예측(Forecasting)	대용량 데이터집합 내의 패턴을 기반으로 미래를 예측한다.	수요 예측